语义分割该如何走下去?
加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
就在明天,由金连文、郑伟诗教授主持的CSIG-广东省CVPR 2020论文预交流在线学术报告会将在极市平台独家直播:5月16日08:50~17:10,超硬核的12位CVPR2020论文一作汇报分享,涵盖分类/分割/ReID等多个热门方向,详情戳这里,在极市平台后台回复“56”,即可获取直播链接。
近日,一位开发者在知乎提出了一个值得深思的问题:语义分割该如何走下去?
这位开发者提到,目前在语义分割领域,看的论文大多是语义分割模型构建,但是自己做的模型也是空洞卷积、编码解码结构等内容,感觉看完必要的网络结构模型之后,已经很久没有提升了。那么要如何才能进一步提升?还应该学习哪些知识?下文整合了两位知乎大牛的回答,希望能给你一些启发。
机器学习,深度学习,计算机视觉爱好者 https://www.zhihu.com/question/390783647/answer/1221984335 本文来自知乎问答,回答已获作者授权,禁止二次转载
说句泼冷水的话,对大多数研究从业人员来说语义分割目前已经达到瓶颈期了。
顶会顶刊paper看来看去真没啥突破:
(1)手动设计网络结构 -> NAS搜索;
(2)固定感受野 -> 引入空间注意力做感受野自动调节;
(3)效果提升不上去 -> 换个思路做实时分割来对比结果;
(4)自监督太热门 -> 引入弱监督 (GAN, 知识蒸馏, ...) + trick = 差不多的score;
(5)DNN太枯燥,融入点传统视觉的方法搞成end-to-end训练;
(6)CNN太单调,配合GCN搞点悬念;
(7)嫌2D太low逼,转3D点云分割;
觉得太懒?积木堆起:A+B,A+B+C,A+B+C+D,...
积木总结:
A-注意力机制:SE ~ Non-local ~ CcNet ~ GC-Net ~ Gate ~ CBAM ~ Dual Attention ~ Spatial Attention ~ Channel Attention ~ ... 【只要你能熟练的掌握加法、乘法、并行、串行四大法则,外加知道一点基本矩阵运算规则(如:HW * WH = HH)和sigmoid/softmax操作,那么你就能随意的生成很多种注意力机制】
B-卷积结构:Residual block ~ Bottle-neck block ~ Split-Attention block ~ Depthwise separable convolution ~ Recurrent convolution ~ Group convolution ~ Dilated convolution ~ Octave convolution ~ Ghost convolution ~ ...【直接替换掉原始卷积块就完事了】
C-多尺度模块:ASPP ~ PPM ~ DCM ~ DenseASPP ~ FPA ~ OCNet ~ MPM... 【好好把ASPP和PPM这两个模块理解一下,搞多/减少几条分支,并联改成串联或者串并联结合,每个分支搞点加权,再结合点注意力或者替换卷积又可以组装上百种新结构出来了】
D-损失函数:Focal loss ~ Dice loss ~ BCE loss ~ Wetight loss ~ Boundary loss ~ Lovász-Softmax loss ~ TopK loss ~ Hausdorff distance(HD) loss ~ Sensitivity-Specificity (SS) loss ~ Distance penalized CE loss ~ Colour-aware Loss...
E-池化结构:Max pooling ~ Average pooling ~ Random pooling ~ Strip Pooling ~ Mixed Pooling ~...
F-归一化模块:Batch Normalization ~Layer Normalization ~ Instance Normalization ~ Group Normalization ~ Switchable Normalization ~ Filter Response Normalization...
G-学习衰减策略:StepLR ~ MultiStepLR ~ ExponentialLR ~ CosineAnnealingLR ~ ReduceLROnPlateau ~...
H-优化算法:BGD ~ SGD ~ Adam ~ RMSProp ~ Lookahead ~...
I-数据增强:水平翻转、垂直翻转、旋转、平移、缩放、裁剪、擦除、反射变换 ~ 亮度、对比度、饱和度、色彩抖动、对比度变换 ~ 锐化、直方图均衡、Gamma增强、PCA白化、高斯噪声、GAN ~ Mixup
J-骨干网络:LeNet ~ ResNet ~ DenseNet ~ VGGNet ~ GoogLeNet ~ Res2Net ~ ResNeXt ~ InceptionNet ~ SqueezeNet ~ ShuffleNet ~ SENet ~ DPNet ~ MobileNet ~NasNet ~ DetNet ~ EfficientNet ~ ...
...
语义分割从入门到放弃...
北京大学计算机应用技术硕士在读 https://www.zhihu.com/question/390783647/answer/1223902660 本文来自知乎问答,回答已获作者授权,禁止二次转载。
做过一年多语义分割,来回答一下这个问题。
语义分割目前遇到了很大的瓶颈
首先是研究方式的受限。目前的研究方案,大都构建在Dilated FCN之上。在这一设定下,研究者在做的都是戴着镣铐跳舞。既往的研究,能做的无非如下两种选择:
设计一个更有效的语义分割head;
修改feature flow,现在多用NAS形式。
其次是数据集的受限。语义分割所用的数据集需要大量标注的数据,这造成了如下两个现象:
少有的几个数据集刷到接近天花板。
数据量少,支撑不起 training from scratch。
现象1直接导致了近些年的工作显得“没有突破”。做过语义分割的人,肯定知道提升0.5 mIoU是怎样一种难度。这是诸多研究者们现在遇到的最大难点。
现象2则是上述“研究方式的受限”的原因。除了@张航等大组,一般人训练不起ImageNet,所以无法 from scratch 地训练完整的网络,于是只能在head上做功夫。
最后是领域内卷。语义分割的pipeline比较简洁,适合快速入手和尝试idea。刚入手时看过一系列文章,很容易产生“这还不容易”的错觉。于是会有一些眼高手低的现象,但仍然不缺乏一批能沉下心的能手不断刷新榜单。
于是,三座大山之下,目前领域的发展便出现了@点点点回答中所说的同质化,令审稿人一脸懵逼。不得不说,领域确实需要新的破局点,而非蜂拥追热。
近些年的文章,也并非没有价值。
三座大山之下,仍是不断有引人思考的文章出现。
远有ASPP和Dilated FCN ,它们定义了dilated conv这一操作,而今已是深度学习的入门基础。能成为人人皆知的基础知识,可见之影响力。
近有@Yanwei Li的Dynamic routing,打破了上述“研究方式的受限”,让人意识到还有比NAS更灵活的存在。
而一系列对注意力机制的不断思考与探索,也让人见识到:注意力不止是注意力。
一个领域不一定要惊天动地才有价值,稳扎稳打的推进亦让人受益匪浅。
而领域内卷,反而一定程度上提升了领域的bar。
君不见,NL(nonlocal) based文章别处风生水起,而本领域却被连环拒稿。
君不见,seg领域arxiv层出不穷,但只有个中精妙且幸运者,才能中的广传。
许多语义分割的文章,目标不止本领域。
很多人搞语义分割,是因为它是一个优良的representation learning的试兵厂。其简洁的pipeline,方便轻松地进行新模块的探索。
举自己的EMANet为例,其作为一种general的模块,本人对它的期望不只是分割领域。倘若资源充足,本人何尝不想学习ResNest,直接做成backbone。而很多人眼中它就是个注意力,而我更看中他的低秩性质。我们后续的工作也在继续挖掘这一性质,而彻底告别注意力的外壳。
一些方法论则看似弱鸡,实则并不浅薄。
这里援引下高赞回答的第五条:DNN太枯燥,融入点传统视觉的方法搞成end-to-end训练“融入”一词轻描淡写,但个中奥妙却被掩藏。
深度学习时代,人们忽视了太多经典的基础。很多过去早已研究透彻的东西,被重新发明一套名词。与之相比,正确的价值观,应该是重视前人的宝贵探索,并在这个繁杂逐利的时代将之renaissance。与其重造轮子,倒不如思考下DL的局限,而经典可以为之补足什么。
Lecun大力提倡的Differentiable programming,恰是这一思潮的重要武器。有经验的人会告诉你,“搞成end-to-end”从来不是一蹴而就。这一功力,不易拿捏。过轻则网络难以训练,过重则丧失优异性质,完全沦为标准网络。鄙人的EMANet,算作这类方法里最low的范例。但是跟我讨论过的人都知道,只靠纯粹简洁E、M、R公式难以work,背后的付出多在Bases Maintenance上。
而前段时间热评的PointRend,又有多少人能开脑洞从rendering迁移到seg;又有多少人能这“简陋”算法高效实现且跑出高性能?而Nonlocal出现之前,又有多少人思考到了self-attention和经典非局部算子的联系?
盖大智者,能思其本质;而飘飘者,啖笑其浅薄。
遇到瓶颈,正适合高追求者入局
对强者:
领域陷入瓶颈时,正是入局变革的好时机。当总结出了种种不足,恰是对其rethink的最好时候。一个领域充斥“没啥突破”的文章时,一篇高质量的文章,定能引得众人赏识。鹤立鸡群,总比强强对抗来的容易,不是么?
领域内的研究者,何尝不希望若干破局者的到来?诸多人陷入有限资源的内卷,都希望能有新的着力点。一篇高质量文章的出炉,最差的待遇也是成百上千引用者的追逐。对于有相关领域经验,且对representation learning有深入思考的同行,语义分割是你们很好的试金石。
对小白:
全监督的语义分割确实门槛略高,需要丰富的机器资源,稳扎稳打扫平trick的耐心,还需要足够开阔的思维来衍生漂亮而实用的idea,所以鄙人也不建议盲目入坑。
但是语义分割也不止标准任务, @大大拉头@ICOZ@杨奎元-深动等回答中列出了一系列尚有挺大空间的明路,它们也是值得探索的任务。 @湃森列出的(1-8)也是一些可行思路。
至于 @湃森列的积木(ABCD...),不得不发论文来求毕业者,万不得已时,就参考下吧。。。
对所有:道路千万条,求真第一条。造假一时爽,同门两行泪。
关于「语义分割该如何走下去」这一问题,你怎么看?欢迎在下方留言区抒发你的见解~
参考:
[1]abYu, Fisher, Vladlen Koltun, and Thomas Funkhouser. "Dilated residual networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. https://arxiv.org/abs/1705.09914
[2]Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848. http://arxiv.org/abs/1606.00915
[3]语义分割中的Attention和低秩重建 https://zhuanlan.zhihu.com/p/77834369
[4][ICCV 2019 Oral] 期望最大化注意力网络 EMANet 详解 https://zhuanlan.zhihu.com/p/78018142
[5]语义分割该如何走下去?- 湃森的回答 - 知乎 http://www.zhihu.com/question/390783647/answer/1221984335
[6]Differentiable programming-Wikipedia https://en.wikipedia.org/wiki/Differentiable_programming
[7]Kirillov, Alexander, et al. "PointRend: Image Segmentation as Rendering." arXiv preprint arXiv:1912.08193 (2019). http://xxx.itp.ac.cn/pdf/1912.08193v2
[8]Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. https://arxiv.org/abs/1711.07971
*延伸阅读
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:AI移动应用-小极-北大-深圳),即可申请加入AI移动应用极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取最新CV干货
觉得有用麻烦给个在看啦~